查看原文
其他

AutoGame:AI 原生游戏的尝试和思考 | Workshop 分享

Founder Park Founder Park 2023-12-16
上半年爆火的「斯坦福小镇」引发了行业对于 AI 原生游戏的思考和尝试,6 月份,国内团队推出了 AI Agent 游戏的升级版《伊甸岛》,尝试去探索生成式 AI 如何为游戏赋能,玩家能够参与到 NPC 的行为互动中而不只是观众。

《伊甸岛》制作人张昊阳在今年创业成立 AutoGame,专注于 AI Native 游戏的研发和探索。对于 AI 原生游戏,他们提出了游戏领域「全要素生成」的概念,认为未来的生成式 AI 会在游戏中发挥更大的作用。

在 10 月份 Founder Park 的 AGI Playground Workshop 上,AutoGame 团队分享了他们对于「斯坦福小镇」以及 AI 原生游戏的思考,还与社区内的成员们交流了当下生成式 AI 参与游戏制作的可能性。

文章内容为本次 Workshop 的部分精华版分享,完整视频内容可扫码购买。

本场 Workshop 嘉宾介绍:
张昊阳:AutoGame 创始人,GameGPT通讯作者,前腾讯和平精英游戏策划。

王瀚彬:AutoGame 产品负责人,GameGPT 共同作者,深圳零一学院零一学子。


01

AI 小镇距离 AI 原生游戏有多远?

斯坦福小镇的论文《Generative Agents: Interactive Simulacra of Human Behavior》,创造了一个接近游戏但不能称之为游戏的体验。体验其实是一个游戏最有含金量、最多被消费的部分。斯坦福小镇创造的体验就是让我们去当一个旁观者,去观看 agent 的生活。

这篇论文中的 AI 和商业游戏的 AI 仍然是有差别的。它的测试目标是在一个预标注的地图里观看不同 AI 控制的 agent,这些 agent 之间的交互、与地图之间发生的交互,其实没有太多的游戏性,还有不少问题待解决。

首先是地图,目前小镇中的角色没法对地图中的道具的状态进行改变。而且小镇中不存在玩家,没有所谓交互体验,我们只是个旁观者。

第二个问题是成本,《Generative Agents》这篇论文里 AI 小镇的运行成本很高,存在一些算力消耗方面的冗余,有优化的空间。

第三是时间分辨率,AI 的算力能否非常快地完成及时响应,还是只是基于长线规划来安排角色的行动逻辑。如果在本地跑,算力会出问题,远程跑,对于网络又比较依赖。

整体概括的话,AI 小镇是一个只有 calling 没有 function 的框架语言模型,是一个超级工业化场景的问题,这个地图还没有做好被 AI 改变的准备。也就是说,在游戏开发过程中,决策、语言模型之间要有充足的配合,才能够很好地去改变游戏,才可能会出现一个真正的 AI 原生游戏。

比 AI 小镇更进一步的案例

B 站上有一个密室游戏的视频,角色和二次元人物被困在密室里,你需要通过跟 AI 对话,让 ta 同意你离开这里。

参考视频:https://www.bilibili.com/video/BV13s4y1J721/

二次元 AI 角色的台词是:你是我的人质,必须留在这里。这句话大有玄机,这句话是大语言模型说给玩家的,这意味着 ta 知道什么是你,什么是我。也就是说在 ta 的感知系统里,ta 能够感知到是有玩家和 ta 互动,而 ta 也进行了回应。后面半句话则说明 ta 对环境是有感知的,玩家不能够被随便放走,这是系统安排给 NPC 的任务。

虽然这个游戏流程很短,但在对话游戏方面已经做到了五脏俱全。从社群中的反响来看,该游戏也找到了 AI 对话游戏的 PMF(产品市场契合度)。

接下来讲述的《伊甸岛》项目,在我看来完成了一个很大的进步——agent、玩家和地图道具之间真的有互动,玩家和 NPC 可以在游戏中改变世界。将生成式 AI 完成了一个工业化的落地,真正让 AI 小镇有了游戏性。


02

游戏领域「全要素生成」的技术进展

在文本上,我们相信 ChatGPT 这些 AI 基建资源会变得越来越便宜,目前有一些技术手段可以把用户端和服务端通信的内容以某种状态存储起来,而不需要每次跟大模型对话重复内容时都重复计算,这样就减少了用户 token 的消耗,也为大模型能力提供方创造了降价空间。

同时国产大模型开闭源也在发展,也会进一步节省成本;边缘计算可以让终端设备提供运行小模型的能力,这样可能就不需要通过网络的方式去完成一些事情。

图像生成领域,以《伊甸岛》为例,其中 95% 的美术素材都是 AI 生成的,采用了开闭源互相结合的管线,首先用效果好的模型生成内容,然后再用开源模型,比如以 SD 为代表的可控性比较强的模型去精准修改之前的图,得到自己想要的效果。

OpenAI 新发布的 GPT-4V 的效果,已经可以尝试一些 UE 的工作,还有基于 controlnet 的方法去完成 VI 的工作。

视频方面的进展不是那么有突破性,但是稳定性有了进一步提升。AnimateDiff 框架已经可以很好地去完成视频稳定性的控制,但是优化空间还有很多。我不太觉得视频 AI 生成的管线会是基于 Diffusion 等图像生成的方式实现,很可能还是需要还原到三维空间,然后再三维空间再去转成视频。

音频上也没有太突破性的工作,但是越来越多的新产品开始出现,现在已经有一些虚拟偶像和游戏里用到了类似的技术。ChatGPT 的手机端语音属于对端应用,体验非常好,同时将时间分辨率这件事拉到了一个很好的事情——语音质量很高,然后返回的速度又是相对比较快的。

三维目前还没有达到工业化的程度,但文献爆发得很快,最近基于原来的神经辐射场 Nerf ,出现了一些新的技术路线。Nerf 和 mesh 的融合一定程度上解决了编辑性的问题。

全要素生成进展中的行为部分,我们认为这个在一定时间内是被低估的,但是 AI 小镇等项目又把这个热度拉了起来,现在不管是大厂的游戏,还是一些偏独立的游戏,在越来越多地把 AI 驱动的 NPC 装进游戏里,不少还产生了很好的效果。

李飞飞团队 MindAgent 的研究,尝试在《我的世界》里实现具身智能实验语言模型控制角色进行多种操作及多 agent 协同,据反馈说 GPT-4 成本太昂贵,响应速度又不够快,还是存在很多优化空间,必须要在游戏的工业管线上进行很多改造。


03

精选 Q&A

Q:Agent 现在还没能真正创造生产力,卡点在哪里?是模型能力吗?

A:不限定特定场景讲生产力其实都是耍流氓。

首先,不管是对 GPT 还是其他大语言模型,目前都是被过度期待的。现在的时间点,AI 更像是 1 后面的 0,如果人没有足够的能力去驾驭,依然是没有办法解放大模型的生产力。现阶段不同能力、不同审美的人使用 AI 产生的最终结果也不一样,最终我认为 AI 还应该是扮演辅助的角色,不能越俎代庖去代替人类的设计行为。

在实际的应用场景里,策划人员、产品设计等的设计能力还没有达到足够的程度去更好使用 AI。

但是也是有一些产品创造了一些全新的体验,比如 Character AI,以往这种行为树或者预设文本是需要强化学习+NLP 的技术去模拟的,现在大模型可以显著提高对话的交互体验,这其实就是找对了应用场景。

Q:目前都说 GPT-4 成本很贵,那现在计算接入 AI 系统 ROI 的话,要按照什么样的逻辑去计算?

A:这个问题现在还没有很好的答案。

GPT 目前的成本很贵,性能还没有强大到能够让一款大 DAU 游戏有特别高的意愿去接受。《逆水寒》游戏里的 AI NPC,其实是自己训练的一个模型,这么做的第一个考虑是政策风险,在国内做游戏大模型,需要有游戏版号、AI 牌照,还需要直面老板的疑问:这个东西什么时候能变现,3 个月还是 6 个月?因此AI+游戏并不一定适合所有品类的游戏。

用不用 GPT,还是要看 GPT 能不能更好解决当前应用场景的需求。如果是偏聊天对话式的,不管是 GalGame 还是对话体,都能显著提升用户体验,用户也愿意为这种提升付费。但如果是弱对话类型的游戏,就要去寻找应用场景了。用 GPT 去做 bot、做狼人杀,我认为同质化太严重,其实还是有很多东西没被探索,无论是玩法生成还是创造新的玩法。

如果你能给玩家创造前所未有的体验,比如用AI作玩法生成、角色生成、技能生成等,是可以被定义为 AI Native的,自然会有一部分玩家买账。另外也要给生成式AI一些发展时间,这项技术刚出现,工业化程度低,成本肯定会居高不下,因为还没有实现真正的工业化。如果使用人数多了,PMF 跑正了,那应用场景就成立了,自然就有人愿意接入了。核心还是要根据自己的具体场景去算一笔账。

Q:大模型本身过程不可控,感觉本身就是和游戏设计相违背的,为什么还要追求大模型+游戏呢?

A:游戏是一个互动艺术,和电影等其他的艺术形式不一样。电影、小说等,是引导着观众的思路,观众必须线性跟着创作者的思路。而游戏则会出现许多非线性设计,比如在一些沙盒、开放世界类游戏里,同时游戏玩家也有可能故意不按设计者的意图体验游戏内容。

但是非线性不代表会破坏玩家的体验,如果设计足够好,在一个探索度足够高的游戏中,依然能够在碎片化的叙事中传达给玩家关于游戏故事和背景的完整逻辑。像《RimWorld》、《我的世界》等,都有点反直觉且足够复杂,但是它们创造了非常真实的 NPC,并且背景设定也足够丰富,依然可以传达宏大的世界观。

游戏本身拥有足够的开放和自由度,在这个基础上去加大模型,会带来更好的体验。

还有就是,在用大模型去设定游戏技能的时候,不需要策划就每一个数值都精挑细琢,而是可以设定一个标签,它可以根据大模型自己的背景知识,去模拟真人的行为,来匹配到开发者所设定的几十、几百个可枚举的行为当中,从而去进行综合的决策,这个可以让游戏角色带来更真实的体验。Character AI 和《RimWorld》都是试图让游戏的 NPC 更像人类,冷冰冰的角色只会带来高流失率。

我认为 AI 应用在游戏中的一个非常重要的点是「变」,有了 AI 之后,可以带来无穷多的变化。以往我们都是通过 rougelike 或者其他随机性元素来试图做到这一点,但它依然是可枚举的,底层逻辑是可以被玩家探知的。但 AI 进入后,所带来的变化是不可探知的,可能连策划和设计者都没法完全控制角色的某一次具体行为。像《博德之门 3》这样的 TRPG 游戏,很多时候给玩家创造的就是这样的意外惊喜。

Q:大语言模型如何解决传统 RPG 游戏容易出戏的问题?

A:大语言模型在 RPG 游戏的应用我觉得是要分成两部分。接入 AI 的这部分要和传统主线剧情、任务或者商店功能的触发是区隔开的。任务文本还是由策划来设计好,设计的过程可以有 AI 的帮助,但在强引导的游戏中,是一定要保证这部分的一致性的。

大语言模型能够提升的是游戏中 NPC 的特性,让 AI 更具有实感和感情,能够让玩家进行更深度的互动。而且不只有 NPC 这样一个应用场景,还可以实时创作文案,甚至可以当 DND 游戏的 DM 等,取决于你怎么去用它。

《RimWorld》优秀的地方是大量预设好的文本可以和它的数值变化相映射,非常的精巧,但不是所有团队都能做到这么大的工作量,那么大语言模型就提供了一种相对低廉的方式。只要你把大模型调教得足够好,让它不 OOC、不超脱角色设定,在设定的剧情框架下,大模型是可以自由创作一些内容,甚至还能映射到 NPC 的行为上,这就是一个很让人兴奋的场景了。

Q:AI 的到来能让普通人去开发自己的游戏吗?就是那种不懂编程、不懂美工和策划的普通人。

A:全要素生成真的到来的那一天,就是普通人能创作游戏的时候。到时候 AI 的能力就像现在大家去创作短视频一样信手拈来,拍一段视频然后自动剪辑、自动加工。

但是这个是需要一定周期的,需要从业者打磨技术,需要用户能够基于 UGC 的工具,通过与 AI 的互动,让 AI 代替人去完成任务。AI 要能完整理解设计者的诉求,去转换成游戏设计的逻辑和关卡。比较像现在《Roblox》里现有的关卡设计加上 AI 功能之后的体验。

但是现在其实还是没有找到具体的落地场景,比如这个交互是基于语音的还是文字的,还是其他的交互方式,这个现阶段还没有得到验证。

还有就是成本的问题,大语言模型现阶段成本比较高,如何实现商业的闭环还是有待验证的。

第三个就是游戏行业的数据飞轮,游戏行业是一个相对闭塞的行业,不同企业之间因为引擎等原因很难共享数据,如何基于自己的产品平台进行数据飞轮,让用户不断喂数据,需要有一个平台或者编辑器去实现这个功能。



关于 AGI Playground Workshop

AGI Workshop 是 Founder Park 全新推出的 AGI 领域系列线上分享栏目。

作为今年乃至近几年最大的技术热点,AGI 这股浪潮带来的早已不是年初的无脑狂欢,而是越来越冷静的,关于技术进展、商业落地、前沿趋势的严肃探讨。越来越多的技术人才、创业者、投资人聚集于此,用自己的力量与好奇心,共同推动这场技术革命的诞生。

作为这场技术革命的亲历者和见证者,Founder Park 今年举办了千余人参加的 AGI Playgound 大会,和数十期线上活动,邀请了来自 AI x 阅读、AI x 绘画、AI x 视频营销、AI x 招聘、AI x 心理等领域的数十位创业者,分享他们的产品和洞见,也建立了超过 1 万人加入的 AGI 垂直社区。

目前,Founder Park 打造的 AGI 社区聚集着领域内最优秀的 Creators,Builders,和 Founders,我们希望打造一系列线上 Workshop,与更多人分享他们的前沿认知和最佳实践,通过高质量的社区对话和精华内容的萃取传播,不断集结壮大优质社区力量,推动 AGI 时代滚滚向前。




更多阅读
GPTs大爆发后,AI创业者该如何进场?
Sam Altman投资公司正式发布首款AI硬件!没有屏幕、可穿戴的Ai Pin,699美元
万字解析Character.AI:产品优势和商业壁垒在哪里?
OpenAI DevDay 是 AI 创业者的末日吗?创业者和投资人们不这么看
HeyGen:AI创业,我们如何在7个月内达到100万美元收入
470亿美元估值到申请破产:WeWork的大败局是如何造成的?

转载原创文章请添加微信:geekparker
继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存